Otra medida alternativa para la distancia entre ˆπ y p muy usada es la deviance. Λ= máx ω. Si queremos testear. el cociente estaría dado por

M.L.G. Ana M. Bianco FCEyN 2010 96 Estadístico G 2 Otra medida alternativa para la distancia entre ˆπ y p muy usada es la deviance G 2, que es un estadístico basado en el cociente de verosimilitud. Si queremos testear H0 : Modelo restringido ω H1 : Modelo Saturado Ω, el cociente estaría dado por Λ= máx ω L máx Ω L Si consideramos G 2 = 2 log Λ queda definido el estadístico como G 2 = 2logΛ=2[l(p, X) l( ˆπ, X)] =2 N X i log pi N X i log ˆπi i=1 i=1

M.L.G. Ana M. Bianco FCEyN 2010 97 =2 N =2 N i=1 X i log p i ˆπi i=1 X i log X i n ˆπi Por lo tanto G 2 =2 N i=1 X i log X i n ˆπi Probaremos que bajo H0 la distribución ĺımite de G 2 es también χ 2 con N 1 #{ parámetros bajo ω} es decir la misma distribución ĺımite que la del estadístico de Pearson. Para derivar la distribución asintótica, probaremos que G 2 χ 2 p 0. Una ventaja de G 2 es que tiene sentido en modelos más generales.. En el ejemplo de Identificación Partidaria vs. Sexo, G 2 = 7, que da también un p valor de 0.03.

M.L.G. Ana M. Bianco FCEyN 2010 98 Efecto de observar ceros Si en alguna celda se observa un 0, el estadístico χ 2 puede calcularse sin problemas, siempre que las ˆπ s sean todas positivas. Sin embargo, el estadístico G 2 tiene problemas, pues si Xi = 0, entonces Xi log X i no está definido. Si n ˆπi reescribimos a G 2 como G 2 = 2logΛ=2log =2log N i=1 Xi/n ˆπi X i L(p, X) L( ˆπ, X) una celda con un 0 aporta un 1 al producto y por lo tanto puede ser ignorada. Luego podemos calcular a G 2 como 2 X i log X i i: x i >0 n ˆπi Si alguna ˆπi es 0, los dos estadísticos se rompen.

M.L.G. Ana M. Bianco FCEyN 2010 99 Cuán grande debe ser n para tener una buena aproximación? Sabemos que a medida que n se hace más grande la distribución de χ 2 ydeg 2 se aproximan a una distribución ĺımite χ 2, sin embargo nos preguntamos cuán grande es grande. Una vieja regla conocida para las binomiales dice que la aproximación χ 2 es buena si n ˆπi 5, i =1,...,N. Otra regla más permisiva establece que la aproximación χ 2 es buena si a lo sumo el 20 % de las casillas tienen n ˆπi < 5, i =1,...,N y ninguna casilla tiene n ˆπi < 1. En tablas sparse (esparcidas????)(por ejemplo, n/n < 5) la aproximación χ 2 es pobre. En realidad, si los datos están distribuidos en la tabla de foma muy desigual, en el sentido de que hay zonas de la tabla que son sparse, la aproximación χ 2 también puede ser pobre, aún cuando el n total sea grande. Hemos probado que los dos estadísticosseaproximana0,sielmodeloes cierto. Si el modelo no es cierto, ambos crecen, pero la diferencia entre ambos también puede crecer. De manera, que si el modelo tiene un ajuste pobre los

M.L.G. Ana M. Bianco FCEyN 2010 100 dos estadísticos pueden ser grandes y estar lejos uno de otro, i.e., χ 2 G 2 no necesariamente tiende a 0 con n. Aún en esa situación, los correspondientes p valores pueden estar cerca de 0 y podemos llegar a la misma conclusión a partir de ellos. Para ser más precisos, consideremos una sucesión de situaciones πn para las cuales la falta de ajuste disminuye con n, es decir trabajaremos con alternativas contiguas. Supongamos que el modelo bajo la hipótesis nula es π, peroen realidad πn = f(θ)+δ/ n, entonces si δ =0,elmodeloescierto. Para estas alternativas contiguas, Mitra (1958) demostró que el estadístico de Pearson tiene distribución asintótica χ 2 no central, con N 1 q grados de libertad, con parámetro de no centralidad dado por

M.L.G. Ana M. Bianco FCEyN 2010 101 λ = n N i=1 (πni fi(θ)) 2 fi(θ) Notemos que λ tiene la forma del estadístico χ 2 en el que se reemplazó ap por πn ya ˆπ por f(θ). Análogamente, utilizando los mismos reemplazos obtenemos el parámetro de no centralidad de G 2. Haberman (1974) demostró que bajo ciertas condiciones χ 2 y G 2 tienen el mismo parámetro de no centralidad, pero éste no es siempre el caso, (ver Agresti,2002, pag 590). Residuos de Pearson y deviance Como ya hemos visto podemos escribir al estadístico de Pearson como χ 2 = n N i=1 e2 i. A ɛi = n p i ˆπi ˆπi = n i ˆmi ˆmi se lo conoce como el i ésimo residuo de Pearson.

M.L.G. Ana M. Bianco FCEyN 2010 102 Estos residuos se comportan de alguna manera como los residuos estandarizados que conocimos en regresión lineal. Es común que se compare a ɛi con 2, indicándose falta de ajuste en la i ésima casilla si ɛi > 2. El análisis de estos residuos puede sugerirnos en que sentido los datos se apartan del modelo ajustado. De la misma forma, la deviance puede interpretarse como una suma de cuadrados de residuos G 2 = N r i 2 i=1 donde ri = 2Xi log X i n ˆπi sgn(xi n ˆπi) que se conocen como componentes de la deviance.

M.L.G. Ana M. Bianco FCEyN 2010 103 Medidas de Asociación A fin de describir el grado de asociación entre las variables de una tabla de contingencia es frecuente que se usen distintas medidas. Comenzaremos con tablas de 2 2, como las que siguen Y X 1 2 Total 1 π11 π12 π1+ 2 π21 π22 π2+ Total π+1 π+2 1 Y X 1 2 Total 1 n11 n12 n1+ 2 n21 n22 n2+ Total n+1 n+2 1 Consideremos la siguiente tabla que corresponde a un informe sobre la relación entre el uso de aspirina y el infarto de miocardio realizado por el Physicians Health Study Research Group de Harvard Medical School:

M.L.G. Ana M. Bianco FCEyN 2010 104 Infarto de Miocardio si no Total Aspirina 104 10933 11037 Placebo 189 10845 11034 Diferencia de Proporciones o Riesgo Atribuible Miremos a Y como variable de respuesta y a X como variable explicativa, tal como seríıa natural en un muestreo de producto multinomial en que n11 Bi(n1+, π 11 π1+ independientes. La diferencia de proporciones se define como )yn21 Bi(n2+, π 21 π2+ ) δ = P (Y =1 X =1) P (Y =1 X =2) = π 11 π 21 π1+ π2+ = π 1 1 π 1 2

M.L.G. Ana M. Bianco FCEyN 2010 105 Podemos estimar a δ como d = n 11 n 21 n1+ n2+ = p 1 1 p 1 2 En el ejemplo de Infarto de Miocardio tenemos d = 104/11037 189/11034 = 0.0094-0.0171 = -0.0077 Observemos que E(d) =E(p 1 1 p 1 2 )=π 1 1 π 1 2 V (d) =V (p 1 1 p 1 2 )= π 1 1(1 π 1 1 ) n1+ + π 1 2(1 π 1 2 ) n2+ siendo la última igualdad cierta por la independencia entre las filas. Si n1+ y n2+ son grandes, d es aproximadamente normal, es decir (p 1 1 p 1 2 ) (π 1 1 π 1 2 ) π 1 1 (1 π 1 1 ) n1+ + π 1 2 (1 π 1 2 ) n2+

M.L.G. Ana M. Bianco FCEyN 2010 106 es aproximadamente N(0, 1). Por lo tanto haciendo un plug in para estimar la varianza podemos obtener un intervalo asintótitco para δ de nivel 1 α como d ± z α/2 p 1 1 p 1 2 ± z α/2 p 1 1 (1 p 1 1 ) n1+ p 1 1 (1 p 1 1 ) n1+ + p 1 2(1 p 1 2 ) n2+ + p 1 2(1 p 1 2 ) n2+ Riesgo Relativo Notemos que que la diferencia entre 41 % y 40.1 % es la misma que entre 1 % y 0.1 %. Sin embargo, 1 % es diez veces 0.1 %. Este es un problema de la diferencia de proporciones como medida. Si estamos trabajanos con eventos poco frecuentes π 1 1 y π 1 2 serán muy pequeñas y δ será cercano a 0, aún cuando el efecto sea importante, como en el ejemplo anterior. Esto es frecuente en epidemiología en donde la prevalencia de ciertas enfermedades es muy baja.

M.L.G. Ana M. Bianco FCEyN 2010 107 Esto sugiere la conveniencia de considerar una medida relativa como el riesgo relativo RR = P (Y =1 X =1) P (Y =1 X =2) = π 11/π1+ π21/π2+ El riesgo relativo es una medida no negativa y un riego relativo igual a 1 corresponde a independencia. El EMV de RR es En el ejemplo quedaría: rr = n 11/n1+ n21/n2+ rr = 0.0094 0.0171 =0.55, esto significa que el riesgo de infarto de miocardio en el grupo tratado con aspirina es aproximadamente la mitad que en grupo que recibió placebo. Dado que podemos aproximar mediante una normal a su logaritmo suele usarse

M.L.G. Ana M. Bianco FCEyN 2010 108 como medida log(rr), que se estima por log(rr)=logp 1 1 log p 1 2. Sabemos que n D i+(p 1 i π 1 i ) N(0,π1 i (1 π 1 i )), luego usando el método Δ obtenemos que n D i+(log p 1 i log π 1 i ) N 0, (1 π 1 i ) π 1 i Por la independencia entre las filas, obtenemos que la varianza asintótica de log(rr)es V (log(rr)) (1 π 1 1) + (1 π 1 2) n1+π 1 1 n2+π 1 2 y se puede estimar haciendo un plug in por. ˆ V (log(rr)) (1 p 1 1) + (1 p 1 2) n1+ p 1 1 n2+ p 1 2 1 1 + 1 1 n11 n1+ n21 n2+

M.L.G. Ana M. Bianco FCEyN 2010 109 Un intervalo de nivel asintótico 1 α para log(rr) es log(rr) ± z α/2 ˆ V (log(rr)) Como log(rr)noexistesialgún p 1 i = 0 suele usarse log log( rr)=log n11 +1/2 n1+ +1/2 n21 +1/2 n2+ +1/2 Odds Ratio (Producto Cruzado) El riesgo relativo es el cociente de dos probabilidades. Podríamos comparar la probabilidad de si ydeno en un mismo estrato. Eso nos lleva a la definición de odss o chance. El odds de un suceso es odds = probabilidad 1 probabilidad y toma cualquier valor mayor o igual a 0. En el ejemplo, tenemos que para el grupo tratado el odds estimado resulta

M.L.G. Ana M. Bianco FCEyN 2010 110 0.0094/(1 0.0094) = 0.0094/0.9906 = 0.0095, mientras que para el grupo placebo el odds estimado es 0.0171/(1 0.0171) = 0.0171/0.9829 = 0.0174. En el grupo que recibió placebo la chance de tener infarto es 0.0174 la de no tener infarto, mientras que en el grupo tratado la chance de infarto es 0.0095 la de no tener infarto. Dicho de otra manera, la chance de tener infarto respecto de la de no tenerlo en el grupo placebo es aproximadamente el doble que la obtenida en en el grupo tratado. el grupo tratado, la chance de no Podríamos comparar los dos odds, por ejemplo considerando su cociente, esto da origen a

M.L.G. Ana M. Bianco FCEyN 2010 111 θ = odds ratio = / P (Y =1 X =1)/P (Y =2 X =1) P (Y =1 X =2)/P (Y =2 X =2) = π11 π1+ π21 π12 π1+ / π22 π2+ π2+ = π 11π22 π12π21 Esta medida función de P (Y X), la inferencia es válida para los tres muestreos vistos. El EMV es ˆ θ = n 11n22 n12n21 Las propiedades de θ ˆ son fáciles de deducir bajo muestreo multinomial, pero

M.L.G. Ana M. Bianco FCEyN 2010 112 también son válidas con muestreo Poisson o Producto Multinomial en el que los totales marginales por filas o bien por columnas están fijos. Como con el riesgo relativo podemos deducir un intervalo de nivel asintótico 1 α para log( θ) ˆ donde log( θ) ˆ ± z α/2 ˆ V (log( θ)) ˆ = 1 n11 + 1 ˆ V (log θ) ˆ n12 + 1 n21 + 1 Notemos además que si intercambiamos los roles de X e Y, obtenemos θ = π 11π22 π12π21 por lo que también puede ser visto como función de P (X Y ), que correspondería a tener n+j fijos. El hecho de que los roles de X e Y puedan ser intercambiados es una propiedad interesante, pues puede ser de gran utilidad pues permite usar estudios restropectivos. n22